header2.png

Hands-On

Hands-On ini digunakan pada kegiatan Microcredential Associate Data Scientist 2021

Pertemuan 8

Pertemuan 8 (delapan) pada Microcredential Associate Data Scientist 2021 menyampaikan materi mengenai Membersihkan Data dan Memvalidasi Data

DATA CLEANSING & Handling Missing Values


Value yang hilang serta tidak lengkap dari dataframe akan membuat analisis atau model prediksi yang dibuat menjadi tidak akurat dan mengakibatkan keputusan salah yang diambil. Terdapat beberapa cara untuk mengatasi data yang hilang/tidak lengkap tersebut.

Kali ini, kita akan menggunkan Dataset Iris yang kotor / terdapat nilai NaN dan outliers

image.png

                        Info dataset: Dataset ini berisi ukuran/measures 3 spesies iris

Pada Tugas Mandiri Pertemuan 8

silakan Anda kerjakan Latihan 1 s/d 20. Output yang anda lihat merupakan panduan yang dapat Anda ikuti dalam penulisan code :)

Latihan (1)

Melakukan import library yang dibutuhkan

Load Dataset

Kegiatan yang akan kita lakukan:

Latihan (2)

Review Dataset

Missing values adalah nilai yang tidak terdefinisi di dataset. Bentuknya beragam, bisa berupa blank cell, ataupun simbol-simbol tertentu seperti NaN (Not a Number), NA (Not Available), ?, -, dan sebagainya. Missing values dapat menjadi masalah dalam analisis data serta tentunya dapat mempengaruhi hasil modelling machine learning. Dari hasil diatas dataset tsb mengandung 2 data missing values pada kolom/field 'SepalLengthCm' dan beberapa outliers!

Periksa dan Cleansing setiap kolom pada data

dalam kasus ini hint nya adalah: hanya kolom/field 'SepalLengthCm' 'SepalWidthCm' 'PetalLengthCm' yang bermasalah dan kita hanya akan berfokus cleansing pada kolom/field tsb

1. Kolom SepalLengthCm

Latihan (3)

periksa statistik data kolom SepalLengthCm

Latihan (4)

periksa jumlah nilai NaN pada kolom SepalLengthCm

Latihan (5)

cetak index dari nilai NaN kolom SepalLengthCm dengan function np.where

Latihan (6)

  1. Cetak ukuran/dimensi dari dataframe
  2. Drop baris jika ada satu saja data yang missing dan ukuran/dimensi dari dataframe setelah di drop

2. Kolom SepalWidthCm

Latihan (7)

periksa statistik data kolom SepalWidthCm

Dari data diatas terlihat pada terdapat kejanggalan pada nilai max yaitu 2000cm, sedangkan Sepal Width/ lebar Kelopak bunga nampaknya tidak masuk akal bila berukuran hingga 2000cm. Sehingga dapat dipastikan ini merupakan outliers

Latihan (8)

mendeteksi outlier dengan menggunakan boxplot pada kolom SepalWidthCm

Latihan (9)

membuat fungsi melihat data outlier dengan rumus IQR = Q3-Q1

Latihan (10)

melihat data ouliers dari kolom SepalWidthCm menggunakan fungsi yang telah dibuat

Latihan (11)

hapus data outlier dari kolom SepalWidthCm

Latihan (12)

cek ulang outliers dengan fungsi yang telah dibuat

Latihan (13)

cek ulang outliers dengan boxplot

3. Kolom PetalLengthCm

Latihan (14)

periksa statistik data kolom SepalLengthCm

Dari data diatas terlihat pada terdapat kejanggalan pada nilai min yaitu bernilai minus, sedangkan Petal Length/ panjang Kelopak bunga nampaknya tidak masuk akal bila berukuran minus. Sehingga dapat dipastikan ini merupakan outliers

Latihan (15)

periksa data bernilai minus pada kolom PetalLengthCm

Latihan (16)

hapus data bernilai minus / outlier kolom PetalLengthCm

Latihan (17)

cek ulang outliers dengan fungsi yang telah dibuat

CEK DATA SETELAH PROSES CLEANSING

Latihan (18)

Melihat nomor index beserta tipe datanya dengan function info()

Latihan (19)

cek ulang nilai yang hilang / missing values di dalam data setelah proses cleansing

Latihan (20)

Tampilkan 10 baris dataframe setelah proses cleansing

DATA SUDAH SIAP UNTUK KETAHAP SELANJUTNYA YAITU MODELLING :)